Modul 5 von 15 · 📖 7 min Lesezeit · ⏱ 30 min gesamt

FI-DPA 05 Datenqualität messen und sichern

Inhaltsverzeichnis (6 Abschnitte)

Konzepte und Hintergrund
Architektur-Diagramm
Praktische Schritte
Häufige Fallstricke
Weiterführende Ressourcen
Wissens-Check

FI-DPA 05 Datenqualität messen und sichern

Datenqualität ist das Fundament für zuverlässige Analysen und fundierte Entscheidungen in Unternehmen. In diesem Modul erlernen Sie die Methoden zur systematischen Bewertung und Sicherung von Datenqualität anhand zentraler Kriterien wie Vollständigkeit, Genauigkeit und Konsistenz. Sie erhalten praktische Kenntnisse im Datenprofiling und setzen das Great Expectations Framework ein, um Datenqualität automatisiert zu überwachen und sicherzustellen.

Konzepte und Hintergrund

Completeness (Vollständigkeit): Beurteilt, ob alle erwarteten Daten vorhanden sind. Fehlende Werte können zu unvollständigen Analysen und verzerrten Ergebnissen führen.
Accuracy (Genauigkeit): Prüft, ob den Daten korrekte und fehlerfreie Werte zugrunde liegen. Ungenaue Daten führen zu falschen Schlussfolgerungen und Entscheidungen.
Consistency (Konsistenz): Stellt sicher, dass Daten über verschiedene Systeme oder Datensätze hinweg übereinstimmen. Inkonsistenzen können zu Duplikaten und widersprüchlichen Informationen führen.
Datenprofiling: Ein systematischer Prozess zur Untersuchung der Eigenschaften von Datenbeständen, um Struktur, Inhalt und Qualität zu verstehen.
Great Expectations: Ein Open-Source-Framework zur Erstellung, Validierung und Dokumentation von Datenqualitäts-Expectations, das die kontinuierliche Überwachung sicherstellt.

Architektur-Diagramm

flowchart LR
    A[Datenquelle] --> B[Datenprofiling]
    B --> C[Great Expectations]
    C --> D[Erwartungsdefinitionen]
    C --> E[Datenvalidierung]
    E --> F[Qualitätsbericht]
    F --> G[Automatisierte Aktionen]

Praktische Schritte

Datenquellen identifizieren und dokumentieren. Dies bildet die Grundlage für alle weiteren Qualitätsanalysen.
Datenprofiling mit Python-Bibliotheken durchführen, um statistische Kennzahlen, Verteilungen und Anomalien zu ermitteln.

import pandas as pd
df = pd.read_csv('datenquelle.csv')
print(df.describe())
print(df.isnull().sum())

Great Expectations initialisieren und einen Datenkontext für Ihr Projekt einrichten.

great_expectations init
great_expectations datasource new

Erwartungen (Expectations) für Schlüsseldaten definieren, z.B. für Vollständigkeit, Datentypen oder Wertebereiche.

context.add_expectation(
    expectation_suite_name="meine_erwartungen",
    expectation_suite={
        "expectations": [
            {
                "expectation_type": "expect_column_values_to_not_be_null",
                "kwargs": {"column": "kunden_id"}
            }
        ]
    }
)

Datenvalidierung durchführen und die Ergebnisse dokumentieren, um Abweichungen von den definierten Qualitätsstandards zu identifizieren.

validation_result = context.validate(
    datasource_name="meine_datenquelle",
    suite_name="meine_erwartungen"
)

Automatisierte Workflows für die kontinuierliche Überwachung einrichten, um Datenqualität in Echtzeit sicherzustellen.
Alert-Mechanismen für kritische Qualitätsabweichungen implementieren, um proaktiv eingreifen zu können.

Häufige Fallstricke

Weiterführende Ressourcen

Wissens-Check

Vier Fragen zur Selbstkontrolle. Klicken Sie jede Frage an, um die richtige Antwort und Erklärung zu sehen.

Welche der folgenden Datenqualitätskriterien stellt sicher, dass Daten über verschiedene Systeme hinweg übereinstimmen?

A) Vollständigkeit
B) Konsistenz
C) Genauigkeit
D) Validität

Richtige Antwort: B. Konsistenz stellt sicher, dass Daten über verschiedene Systeme oder Datensätze hinweg übereinstimmen. Vollständigkeit bezieht sich auf das Vorhandensein aller erwarteten Daten, Genauigkeit auf die Richtigkeit der Werte, und Validität ist ein allgemeinerer Begriff für die Übereinstimmung mit festgelegten Regeln.

Welches Werkzeug wird im Modul als Open-Source-Framework zur Erstellung, Validierung und Dokumentation von Datenqualitäts-Expectations vorgestellt?

A) Pandas
B) NumPy
C) Great Expectations
D) SQLAlchemy

Richtige Antwort: C. Great Expectations ist das im Modul vorgestellte Framework zur automatisierten Überwachung der Datenqualität. Pandas und NumPy sind Bibliotheken für Datenmanipulation und numerische Berechnungen, und SQLAlchemy ist ein Toolkit für SQL-Datenbanken.

Welche Methode wird im Modul als systematischer Prozess zur Untersuchung der Eigenschaften von Datenbeständen beschrieben, um Struktur, Inhalt und Qualität zu verstehen?

A) Datenbereinigung
B) Datenprofiling
C) Datenmodellierung
D) Datenaggregation

Richtige Antwort: B. Datenprofiling ist der systematische Prozess zur Untersuchung der Eigenschaften von Datenbeständen. Datenbereinigung bezieht sich auf das Entfernen von Fehlern, Datenmodellierung auf die Strukturdefinition, und Datenaggregation auf das Zusammenfassen von Daten.

Welche der folgenden Python-Bibliotheken wird im Modul zur Durchführung von Datenprofiling mit statistischen Kennzahlen und Verteilungen empfohlen?

A) TensorFlow
B) Matplotlib
C) Pandas
D) Scikit-learn

Richtige Antwort: C. Pandas wird im Modul für Datenprofiling empfohlen, wie im Codebeispiel mit df.describe() und df.isnull().sum() gezeigt. TensorFlow ist für maschinelles Lernen, Matplotlib für Visualisierungen, und Scikit-learn für maschinelles Lernen und Datenmodellierung.